Over the past few years, developing a broad, universal, and general-purpose computer vision system has become a hot topic. A powerful universal system would be capable of solving diverse vision tasks simultaneously without being restricted to a specific problem or a specific data domain, which is of great importance in practical real-world computer vision applications. This study pushes the direction forward by concentrating on the million-scale multi-domain universal object detection problem. The problem is not trivial due to its complicated nature in terms of cross-dataset category label duplication, label conflicts, and the hierarchical taxonomy handling. Moreover, what is the resource-efficient way to utilize emerging large pre-trained vision models for million-scale cross-dataset object detection remains an open challenge. This paper tries to address these challenges by introducing our practices in label handling, hierarchy-aware loss design and resource-efficient model training with a pre-trained large model. Our method is ranked second in the object detection track of Robust Vision Challenge 2022 (RVC 2022). We hope our detailed study would serve as an alternative practice paradigm for similar problems in the community. The code is available at https://github.com/linfeng93/Large-UniDet.
translated by 谷歌翻译
Modeling noise transition matrix is a kind of promising method for learning with label noise. Based on the estimated noise transition matrix and the noisy posterior probabilities, the clean posterior probabilities, which are jointly called Label Distribution (LD) in this paper, can be calculated as the supervision. To reliably estimate the noise transition matrix, some methods assume that anchor points are available during training. Nonetheless, if anchor points are invalid, the noise transition matrix might be poorly learned, resulting in poor performance. Consequently, other methods treat reliable data points, extracted from training data, as pseudo anchor points. However, from a statistical point of view, the noise transition matrix can be inferred from data with noisy labels under the clean-label-domination assumption. Therefore, we aim to estimate the noise transition matrix without (pseudo) anchor points. There is evidence showing that samples are more likely to be mislabeled as other similar class labels, which means the mislabeling probability is highly correlated with the inter-class correlation. Inspired by this observation, we propose an instance-specific Label Distribution Regularization (LDR), in which the instance-specific LD is estimated as the supervision, to prevent DCNNs from memorizing noisy labels. Specifically, we estimate the noisy posterior under the supervision of noisy labels, and approximate the batch-level noise transition matrix by estimating the inter-class correlation matrix with neither anchor points nor pseudo anchor points. Experimental results on two synthetic noisy datasets and two real-world noisy datasets demonstrate that our LDR outperforms existing methods.
translated by 谷歌翻译
由于遮挡引起的严重观察,基于手动对象相互作用的单个基于手动对象相互作用的重建具有挑战性。本文提出了一种基于物理的方法,以更好地解决重建中的歧义。它首先提出了一个基于力的动力学模型,该模型不仅恢复了未观察到的触点,而且还解决了合理的接触力。接下来,提出了一种基于置信的幻灯片预防方案,该方案将运动学上的信心和接触力都结合在一起,共同模拟静态和滑动接触运动。定性和定量实验表明,该提出的技术在物理上可行,更准确的手动相互作用,并使用单个RGBD传感器实时估计可见的接触力。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
自动化的腹部多器官分割是计算机辅助诊断腹部器官相关疾病的至关重要但具有挑战性的任务。尽管许多深度学习模型在许多医学图像分割任务中取得了显着的成功,但由于腹部器官的不同大小以及它们之间的含糊界限,腹部器官的准确分割仍然具有挑战性。在本文中,我们提出了一个边界感知网络(BA-NET),以分段CT扫描和MRI扫描进行腹部器官。该模型包含共享编码器,边界解码器和分割解码器。两个解码器都采用了多尺度的深度监督策略,这可以减轻可变器官尺寸引起的问题。边界解码器在每个量表上产生的边界概率图被用作提高分割特征图的注意。我们评估了腹部多器官细分(AMOS)挑战数据集的BA-NET,并获得了CT扫描的多器官分割的平均骰子分数为89.29 $ \%$,平均骰子得分为71.92 $ \%$ \%$ \% MRI扫描。结果表明,在两个分割任务上,BA-NET优于NNUNET。
translated by 谷歌翻译
肾脏结构细分是计算机辅助诊断基于手术的肾癌的至关重要但具有挑战性的任务。尽管许多深度学习模型在许多医学图像分割任务中取得了显着的成功,但由于肾脏肿瘤的尺寸可变,肾脏肿瘤及其周围环境之间的歧义范围可变,因此对计算机层析造影血管造影(CTA)图像的肾脏结构的准确分割仍然具有挑战性。 。在本文中,我们在CTA扫描中提出了一个边界感知网络(BA-NET),以分段肾脏,肾脏肿瘤,动脉和静脉。该模型包含共享编码器,边界解码器和分割解码器。两个解码器都采用了多尺度的深度监督策略,这可以减轻肿瘤大小可变的问题。边界解码器在每个量表上产生的边界概率图被用作提高分割特征图的注意。我们在肾脏解析(KIPA)挑战数据集上评估了BA-NET,并通过使用4倍的交叉验证来实现CTA扫描的肾脏结构细分的平均骰子得分为89.65 $ \%$。结果证明了BA-NET的有效性。
translated by 谷歌翻译
颈动脉血管壁分割是在计算机辅助诊断动脉粥样硬化中的至关重要但具有挑战性的任务。尽管许多深度学习模型在许多医学图像分割任务中取得了显着的成功,但由于注释有限和异构动脉,对磁共振(MR)图像上颈动脉壁(MR)图像的准确分割仍然具有挑战性。在本文中,我们在3D MR图像上提出了一个半监督标签的传播框架,以分段管腔,正常容器壁和动脉粥样硬化血管壁。通过插值提供的注释,我们获得了3D连续标签,用于训练3D分割模型。借助训练有素的模型,我们生成了未标记切片的伪标签,以将其纳入模型训练。然后,我们使用整个MR扫描和传播标签来重新培养分割模型并改善其稳健性。我们评估了颈动脉血管墙分割和动脉粥样硬化诊断(COSMOS)挑战数据集上的标签传播框架,并在测试数据集中获得了83.41 \%的Quanm分数,这使在线评估排行榜上获得了1-ST的位置。结果证明了拟议框架的有效性。
translated by 谷歌翻译
成功的基于机器学习的命名实体识别模型可能会因某些特殊领域的文本而失败,例如中文地址和电子商务标题,需要足够的背景知识。对于人类注释者来说,此类文本也很难。实际上,我们可以从具有一些共同实体的相关文本中获得一些潜在的有用信息,以帮助文本理解。然后,人们可以通过引用相关样本来轻松地提出正确的答案。在本文中,我们建议使用相关样品增强NER模型。我们通过大规模内域未标记的数据从稀疏的BM25检索器中绘制相关样品。为了明确模拟人类推理过程,我们执行了通过多数投票校准的无培训实体类型。为了捕获训练阶段的相关特征,我们建议通过基于变压器的多构度跨编码器对相关样品进行建模。上述两个域数据集的经验结果显示了我们方法的功效。
translated by 谷歌翻译
联合学习是一种来自分散数据集的培训模型的新兴技术。在许多应用程序中,参与联合学习系统的数据所有者不仅拥有数据,还拥有一组域知识。这些知识包括人类的知识和工艺,对联邦学习任务非常有帮助。在这项工作中,我们提出了一个联合学习框架,该框架允许注入参与者的领域知识,其中关键思想是通过本地知识来完善全球模型。我们认为的方案是由真正的行业级应用激励的,我们证明了我们采用该应用的有效性。
translated by 谷歌翻译
本文提出了一种新的模型架构,具有抑制MLP(GIMLP)的门。对CyClemlp(Gi-Cyclemlp)抑制的大门可以在Imagenet分类任务上产生同等的性能,并且还可以改善BERT,ROBERTA和DEBERTAV3型号关于两种新颖的技术。第一个是门控MLP,其中MLP和Trunk注意力输入之间的矩阵乘法在进一步调整模型的适应性中。第二个是抑制作用,它抑制或增强分支调节,并且随着抑制水平的增加,它提供了更大的肌肉特征限制。我们表明,就成像网分类的精度而言,抑制水平较低的GicyClemLP可能与原始CYCLEMLP具有竞争力。此外,我们还通过一项全面的实证研究表明,这些技术显着改善了微调NLU下游任务的性能。至于在Deberta(Gideberta)微调上具有抑制MLP的大门,我们发现它可以在NLU任务的大多数部分上取得吸引力的结果,而无需再进行任何额外的预处理。我们还发现,通过抑制栅极的使用,激活函数应具有短而光滑的负尾巴,而无关紧要的特征或受伤模型的特征可以适度抑制。对图像分类和增强自然语言微调的能力而没有任何额外预读的实验,对Imagenet和十二个语言的实验表明了GATE具有抑制作用的有效性。
translated by 谷歌翻译